Blindtest und Externe Kreuzvalidierung
Beim Antrainieren des Recognition Module wird bereits ein Wert für die zu erwartende Qualität bei künftigen Klassifikationen
errechnet.
Wird hier zum Beispiel eine Qualität von 95% angezeigt, besagt dies, dass wahrscheinlich 95% der späteren Zuordnungen richtig sein
werden.
Eine Überprüfung der Generalisierungsleistung wird man natürlich nur mit Hilfe eines Blindtests mit Daten, die noch in keiner Weise bei der
Erstellung des Recognition Module zur Verfügung standen, durchführen können. Oft liegen jedoch nicht ausreichend Daten für einen solchen
Blindtest vor, so dass man sich mit einer "Externen Kreuzvalidierung" behelfen muss. Diese liefert schon eine sehr zuverlässige Schätzung
über die zu erwartende Trefferquote. Bei der Externen Kreuzvalidierung werden in einem Kreuzvalidierungsschritt alle Berechnungen auch
die zur Merkmalsberechnung neu ausgeführt. Die Externe Kreuzvalidierung wird mit einer Teilmenge von jeweils 10 % aller Datensätze
durchgeführt.
Dabei werden von der ursprünglichen Menge an Spektren 10 Prozent weggelassen und nur mit dem Rest der komplette Anlernprozeß
durchgeführt. Anschließend werden die weggelegten Spektren klassifiziert und auf deren richtige Zuordnung hin überprüft. Danach werden
die nächsten 10 Prozent weggelassen und wieder mit den verbleibenden 90 Prozent antrainiert. Dies wiederholt sich 10 mal, bis alle Spektren
testweise klassifiziert worden sind. Das Ergebnis ist eine realistische (und sehr konservative) Abschätzung darüber, wie das fertig
angelernte System in der Zukunft mit tatsächlich unbekannten Daten zurechtkommen wird.
In einer grafischen Übersicht werden die Ergebnisse präsentiert. In dieser können für jeden der 10 einzelnen Testblöcke die errechnete
Qualität des Recognition Module, die absolute und relative Anzahl der richtig bzw. falsch zugeordneten Spektren aus der Testmenge sowie die
Anzahl der dabei jeweils verwendeten Merkmale abgelesen werden. Weiterhin können die einzelnen Blöcke auch im Detail genauer
untersucht und die verwendeten Merkmale (
Spektralbereiche ) in einer Vergleichstabelle angezeigt werden.